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摘要 : [目的 /意义 ] 针 对 专利 主题 分 析 中 以 词 为 基本 单位 会 造成 专利 中 的 多 词 术 语 难以 被 识别 ,主题 模型 
结果 不 佳 的 问题 ,提出 融入 术语 的 专利 主题 发 现 模 型 ,以 解决 该 问题 。[ 方法 “过程 ] 模 型 首先 引入 类 别 和 , 有 效 
地 识别 出 专利 文献 中 的 术语 ;然后 利用 泛 化 波 利 亚 仿 模型 增加 语义 相似 术语 分 配 到 同一 主题 的 概率 ,以 缓解 本 
语 作为 基本 主题 模型 分 析 单 位 所 带 来 的 数据 稀疏 性 问题 。[ 结果 /结论 ] 实验 结果 表明 本 文 提 出 的 模型 包含 的 
术语 信息 提高 了 主题 生成 的 质量 ,使 主题 表示 具有 更 强 的 可 读 性 和 主题 判别 性 。 
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PE R ERI SCRA IE 22220 RERE 
TECER .预测 领域 技术 发 展 趋势 .帮助 研发 人 员 
从 和 张 得 启发 与 借鉴 ,从 而 缩短 创新 设计 时 间 ,节约 创 
新 强 计 经 费 。 因 此 ,专利 文献 分 析 具 有 重要 的 研究 意 
义 % “不同 于 传统 的 文献 分 析 方法 ,主题 模型 通过 分 析 
文献 集合 中 词语 共 现 的 概率 分 布 ,能 够 挖 气 文献 中 隐 
藏 答 语 义 信息 。 随 着 主题 模型 的 广泛 应 用 ,研究 者 尝 
试 最 主题 模型 应 用 于 专利 文献 分 析 之 中 ,以 揭示 专利 
文献 深层 次 知识 结构 "0 。 大 量 研究 结果 表明 基于 主 
题 简 型 的 专利 文献 分 析 具 有 较 强 的 实践 意义 。 

然而 ,专利 主题 模型 分 析 的 基本 单位 是 词 ,造成 专 
利 中 的 多 词 术语 难以 被 识别 ,导致 主题 表意 不 清 .不 易 
理解 等 现象 。 例 如 ,在 中 文 专利 主题 分 析 之 前 ,需要 首 
先进 行 分 词 处 理 。 依 靠 一 个 相对 完整 的 分 词 词典 , 目 
前 的 中 文 分 词 技 术 基本 能 够 满足 研究 需要 。 然 而 , 专 
利文 献 与 通用 语 料 相 比 ,包含 大 量 没 有 被 分 词 词典 记 
录 的 词组 型 术语 , 称 之 为 未 登录 词 ,这 些 未 登录 词 造成 
中 文 专利 文献 分 词 效果 不 尽 理 想 ,产生 大 量 的 语义 碎 
片 。 例 如 ,术语 “ 渗 硼 剂 "被 分 词 工 具 切 分 为 “ 渗 硼 
RI" ;术语 “ 热 当 贸 ” 被 切 分 为 “ 热 浸 镀 ” ;术语 “ 双 相 不 


锈 钢 "被 切 分 为 " 双 相 不 锈 钢 ”。 术 语 集中 体现 了 领域 
的 核心 知识 ,而 这 些 被 切 分 成 碎片 的 术语 往往 难以 被 
识别 而 无 法 揭示 其 核心 知识 。 此 外 ,术语 被 切 分 成 多 
个 单词 后 会 引起 额外 的 共 现 ,使 得 生成 的 主题 可 能 
现 一 些 无 关 词 汇 , 导致 主题 模型 结果 不 佳 。 改 善 主题 
语义 的 一 个 方法 是 关注 比 词汇 更 高 阶 的 语义 单元 。 一 
般 是 在 主题 模型 中 将 传统 的 词 分 布 蔡 换 为 高 阶 语义 单 
元 的 分 布 。 然 而 ,目前 基于 术语 的 专利 主题 分 析 还 未 被 
深入 研究 ,其 他 相关 领域 的 研究 存在 模型 过 于 复杂 ,不 
易 扩 展 、 术 语 识别 准确 率 低 ,数据 共 现 稀 玻 性 等 问题 。 

针对 专利 主题 模型 分 析 中 的 上 述 问题 ,本 文 提出 融 
入 术语 知识 的 专利 主题 发 现 模型 。 该 模型 将 术语 作为 
主题 模型 分 析 的 基本 单位 ,首先 根据 专利 文献 的 特点 ， 
引入 类 别 炉 , 有 效 地 识别 出 专利 文献 中 的 术语 ;然后 利 
用 泛 化 波 利 亚 侈 模型 增加 语义 相似 术语 分 配 到 同一 主 
题 的 概率 ,以 缓解 术语 作为 基本 主题 模型 分 析 单 位 所 带 
来 的 数据 稀 玻 性 问题 。 实 验 结果 表明 , 同 传统 的 专利 主 
题 模 型 相 比 ,融和 人 术语 知识 的 专利 主题 模型 包含 更 加 丰 
富 的 语义 信息 .具有 更 强 的 可 读 性 和 主题 判别 性 。 


2 相关 研究 


不 同 于 传统 的 专利 文本 分 析 方 法 ,专利 主题 模型 


jd 
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通过 分 析 专利 文本 集合 中 词语 共 现 的 概率 分 布 ,挖掘 
专利 文本 隐 含 的 语义 信息 ,以 揭示 专利 文本 深层 次 知 
识 结构 。 例 如 ,J. Tang 等 ”提出 一 个 主题 驱动 的 专利 
分 析 方 法 ,以 分 析 专 利 竞争 对 手 发 展 状况 等 。B. Wang 
等 从 专利 标题 和 摘要 中 抽取 技术 术语 ,基于 技术 术 
语 ,通过 添加 机 构 信息 ,使 用 扩展 的 主题 模型 ,以 分 析 
具体 领域 的 研究 热点 和 方向 、 竞 争 对 手 企业 的 技术 
位 置 。H，Chen 等 中 使 用 主题 模型 评估 专利 权力 要 求 
书 中 隐藏 的 主题 。M，Kim 等 中 使 用 主题 模型 分 析 专 
利 摘要 和 专利 权力 要 求 书 ,生成 专利 开发 地 图 ,以 理解 
技术 的 发 展 趋势 。A，Suominen 等 中 使 用 主题 模型 分 
类 专利 文本 数据 ,以 预测 将 来 的 技术 趋势 。 范 宇 等 
利用 主题 模型 将 专利 文本 在 词汇 空间 的 高 维 表达 转换 
到 在 主题 空间 的 低 维 表达 ,实现 对 专利 文本 描述 的 降 
而 采用 近邻 算法 对 专利 文本 进行 聚 类 。 王 博 
等 加 将 主题 模型 应 用 于 专利 文本 分 析 领 域 ,实现 专利 
装 题 划分 ,解决 以 往 专利 主题 分 类 过 于 粗 泛 、 时 效 性 
凑 禾 乏 科 学 性 等 问题 。 吴 菲菲 等 "提取 专利 摘要 中 
的 名 词 和 名 词 短语 ,构建 主题 模型 ,揭示 专利 文本 中 隐 
多 主题 演化 ,最 终 实现 企业 战略 动态 变化 挖 据 。 雇 
列 尖 和 勒 圣 刚 ” 提 出 基于 主题 模型 和 分 类 号 的 专利 技 
在 化 模型 。 陈 亮 等 ' "采用 主题 模型 ,从 专利 语料库 
中 指 取 层次 主题 模型 ,描述 隐藏 在 专利 文本 中 的 技术 
和 刹 , 进 行 专利 技术 演化 分 析 。 

虽然 专利 主题 模型 取得 了 不 错 的 分 析 效果 ,但 是 
和 主题 模型 分 析 以 词 为 单位 。 而 专利 中 由 多 词 构成 
术语 集中 体现 了 领域 的 核心 知识 ,这 些 被 切 分 成 碎 
片 葬 术语 往往 难以 被 识别 ,并 引起 额外 的 共 现 , 使 得 生 
成 的 主题 可 能 出 现 一 些 无 关 词汇 ,导致 主题 模型 结果 
不 佳 。 改 善 主题 语义 的 一 个 方法 是 关注 比 词 更 高 阶 的 
语义 单元 ,一 般 是 在 主题 模型 中 将 传统 的 词 分 布 蔡 换 
为 高 阶 语 义 单元 的 分 布 。 根 据 术语 识别 在 主题 发 现 中 
实施 的 不 同 阶段 , 现 有 相关 方法 可 大 致 分 为 术语 预先 
处 理 模型 联合 模型 .术语 后 处 理 模型 等 三 大 类 。 术 语 
预先 处 理 模型 首先 进行 文本 术语 识别 任务 ,然后 基于 
术语 识别 主题 。 联 合 模型 是 指 模型 同时 识别 术语 和 发 
现 主题 "-"”。 术 语 后 处 理 模型 首先 按 传统 方式 ,通过 
处 理 一 元 主题 模型 得 到 主题 模型 ,然后 将 一 元 词组 合 
成 术语 5 。 其 中 ,虽然 实验 表明 联合 模型 能 够 提高 主 
题 异 型 的 准确 度 ,推断 出 的 主题 词 含义 更 丰富 ,但 是 ， 
联合 模型 通常 构造 复杂 ,经 常 面临 计算 复杂 度 高 和 大 
文档 集 难以 扩展 等 问题 ;术语 后 处 理 模型 虽然 将 术语 
识别 任务 与 主题 发 现任 务 分 开 进行 ,降低 了 计算 复杂 


度 和 难以 扩展 的 问题 ,但 是 这 类 方法 使 用 的 一 元 主题 
模型 不 能 保证 术语 中 的 词 具有 相同 的 主题 ,而 这 在 主 
题 术语 挖掘 研究 中 恰恰 是 重要 部 分 。 

因此 ,本 文 主要 集中 于 术语 预先 处 理 模型 的 研究 。 
术语 预先 处 理 模型 首先 进行 文本 术语 识别 任务 ,然后 
基于 术语 识别 主题 。 术 语 识别 通常 使 用 频次 或 结合 词 
性 规则 的 方法 。 基 于 频次 的 方法 通常 进行 频繁 项 集 挖 
据 和 关联 规则 挖掘 “"*-"” ,将 频次 小 于 人 工 设 定 阔 值 
的 词 定 义 为 低频 词 ,并 将 这 些 低频 词 去 除 ,抽取 频繁 
项 ,并 统计 其 出 现 次 数 。 基 于 词性 规则 的 方法 根据 专 
利文 献 的 构 词 特征 ,提出 一 套 适 用 于 专利 文本 的 名 词 
抽取 规则 ,抽取 名 词 短语 构成 专利 主题 词 ,然后 根据 这 
些 词 串 出 现 的 频次 形成 术语 。 在 经 过 对 文本 集合 的 
预 处 理 后 ,文档 被 分 割 成 术语 集合 ,在 主题 模型 中 , 术 
语 中 的 单词 共享 相同 的 潜在 主题 模型 。 

术语 预先 处 理 模型 方法 将 术语 识别 任务 与 主题 发 
现任 务 分 开 进 行 ,降低 了 计算 复杂 度 和 难以 扩展 的 问 
题 ,并 解决 了 术语 中 单词 主题 不 一 致 的 问题 。 但 是 ,该 
类 方法 仍 存在 一 些 不 足 :中 在 术语 识别 阶段 ,基于 频次 
产生 的 术语 质量 不 高 ,高 频 词组 不 一 定 是 术语 , 非 高 频 
词组 也 可 能 是 术语 。@) 在 主题 发 现 阶段 ,未 关注 如 何 
解决 高 阶 语 义 单 元 共 现 稀 玻 的 问题 。 主 题 模 型 核心 思 
想 一 般 基 于 文档 内 元 素 的 共 现 "” ,根据 自然 语言 中 分 
dà IRE Gp UI ,大 部 分 词 共 现 稀 玖 。 进 行 主题 分 析 
时 , 相 较 于 将 文档 看 做 词 袋 ,把 文档 作为 术语 的 集合 ， 
文档 所 包含 元 素 将 变 得 更 为 稀 玻 ,元 素 间 共 现 度 也 会 
进一步 下 降 ,这 会 对 主题 模型 带 来 较 大 的 副作用 。 这 
种 稀 玻 性 必然 给 主题 模型 学 习 带 来 一 定 难 度 。 

本 文 提 出 的 方法 属于 第 三 类 术语 预先 处 理 模 型 ， 
首先 是 识别 术语 ,然后 发 现 主题 ,具有 简单 直观 、 易 于 
扩展 的 特点 。 根 据 中 文 专利 的 特点 ,引入 类 别 炉 以 识 
别 出 中 文 专利 中 的 术语 ,并 引入 基于 泛 化 波 利 亚 侈 模 
型 ,利用 相关 术语 采样 来 缓解 稀 玻 性 。 

融入 术语 知识 的 专利 主题 模型 

本 文 针 对 专利 文献 的 特点 ,提出 融入 术语 知识 的 
专利 主题 模型 。 模 型 将 获取 的 专利 文本 进行 分 词 数 
据 清 洗 等 预 处 理 之 后 ,进行 术语 识别 (第 3.1 部 分 具体 
介绍 ) ,然后 基于 识别 的 术语 ,进行 基于 术语 的 主题 建 
模 (第 3.2 部 分 具体 介绍 ) ,以 实现 主题 发 现 。 

3.1 术语 识别 

仅仅 依赖 于 词组 出 现 频次 ,不 能 辨别 是 否 是 专利 

术语 ,如 ,专利 中 “发 明 涉及 ”出 现 的 频次 远 高 于 术语 。 
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与 普通 文献 相 比 ,专利 文献 具有 其 自身 特点 。 通 常 , 专 
利文 献 包 含 通用 词 和 术语 两 类 。 通 用 词 通常 具有 主题 
无 关 性 ,在 多 个 类 别 中 均匀 出 现 , 常 引出 术语 以 作为 术 
语 与 下 文 的 衔接 ;而 术语 则 表达 某 个 领域 知识 ,具有 较 
高 的 领域 相关 性 ,在 某 一 类 别 中 高 频 出 现 ,而 在 其 他 类 
别 中 低频 出 现 , 甚 至 不 出 现 。 如 图 1 所 示 ,来 自 3 个 不 
同类 别 的 专利 文本 语句 ,经 过 切 分 工具 切 分 后 ,“ 渗 W 
剂 “ 电 解 ERE MZR 离心 人 汞 ”分 别 是 不 同类 别 
的 术语 ;而 “本 “发 明 ”“ 涉 及 ”"“ 一 种 “的 “方法 "等 
则 是 通用 词 ,在 3 个 类 别 中 均 有 出 现 。 相 较 于 一 般 语 
料 , 通 用 词 和 术语 在 专利 文献 中 的 界限 更 加 清晰 。 且 
通用 词 更 容易 被 识别 。 因 此 ,本 文 将 首先 识别 通用 词 
选取 候选 术语 ,然后 对 候选 术语 进行 排序 ,评估 其 成 为 
AGE BS np RETE o 
之 类 别 1: 本 发 明 涉及 一 种 iB WDORD 的 制备 方法 。 


类 别 2: 本 发 明 涉及 二 种 电解 金属 锰 的 生产 JD. 
类 别 3: 本 发 明 涉及 二 种 多 级 离心 泵 的 设计 方法 。 


1 专利 文献 通用 词 与 术语 示例 


修 选 术语 选取 ”专利 中 的 通用 词 通常 具有 主 


论 中 重要 的 概念 ,用 来 度量 信息 的 不 确定 程度 。 


利 殉 本 集 ,每 个 类 别 包含 若干 个 相关 专利 文本 ,将 词 
在 未 同类 别 间 的 分 布 称 为 类 别 间 信 息 悄 (entropy cate- 
goes, EC) ,计算 公式 如 式 (1) 所 示 : 


» df(w ,c;) df(w ,c;) 


EC) T RC fu) PE au) n 


其 中 ,EC(w) 表 示 词 w 182 [8] fei IS ; d£ Cw Le, ) 
表示 词 w 在 类 别 e, 中 的 文档 频次 ;df(w) = Xdf(w, 
e;) ,表示 词 w 在 辅助 专利 文本 集中 的 文档 频次 。 由 定 
义 可 知 , 当 词 只 出 现在 单个 类 别 的 文本 中 时 ,类别 间 
信息 炉 最 小 ; 当 词 在 所 有 类 别 中 均匀 分 布 时 ,类 别 间 
fri SB SIC. aX CL) np IL, Ka EC RA, 
表明 词 在 各 类 别 间 分 布 越 均 匀 , 越 可 能 是 专利 通 
用 词 。 

按照 类 别 粒 对 词 降序 排列 ,选取 大 于 姜 值 的 词 作 
为 通用 词 ,对 分 词 后 的 目标 专利 文本 进行 粗 切 分 ,本 文 
遵循 |1,5 ,19 -20 ] ,将 频次 大 于 1 次 且 长 度 大 于 1 的 
词 串 及 其 子 串 作为 候选 术语 。 


x log 
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3.1.2. 修 选 术语 排序 C-value 统计 量 可 用 于 计算 每 
个 候选 术语 成 为 术语 的 可 能 性 ”。 它 是 针对 术语 词 
频 计 算 的 一 种 改进 ,可 以 增进 和 通 套 多 词 术语 的 抽取 ， 
排除 一 些 非 术 语词 汇 的 干扰 。 当 子 串 和 母 串 短语 同 
时 纳入 候选 领域 术语 集 时 , 即 存在 构 套 串 , 则 可 以 计 
算 其 在 语 料 中 的 C-value 值 来 判断 其 是 否 为 真正 的 术 
Wo C-value 方法 简单 .适用 性 强 、 领 域 无 关 , 考虑 了 
候选 术语 的 能 套 性 和 长 度 , 在 术语 识别 方面 表现 较 
好 

具体 地 ,C-value 值 计算 利用 候选 词 的 以 下 4 个 
统计 特征 :候选 串 在 语 料 中 出 现 的 总 频次 、 候 选 串 
ERRE REEE P EAHA AGERRE R H 
母 串 的 个 数 、 候 选 串 的 长 度 。 其 计算 公式 如 式 (2) 
所 示 : 

Cvahue(x) = 

loglxl xif(x) x RERE 


loglx| x (tf(x) "sers boton) 其 他 


式 (2) 

其 中 ,x 表示 候选 术语 ;1x1 表 示 x 的 长 度 ;tf(x) 表 
IR x 在 目标 专利 文本 集中 出 现 的 频次 ;7, 表示 目标 专 
利文 本 集 包含 * 的 候选 术语 ;p(7, ) 表 示 目 标 专 利文 本 
RER T, 中 元 素 个 数 。 由 公式 可 知 ,C-value 与 该 候选 
术语 在 语 料 中 的 频次 有 关 , 频 次 越 高 ,其 术语 度 越 大 。 
在 此 基础 上 ,又 考虑 了 候选 术语 的 长 度 ,认为 长 串 出 现 
频次 比 短 串 出 现 频次 更 有 意义 ,是 术语 的 可 能 性 更 大 。 
3.2 主题 发 现 

本 文 基于 传统 的 主题 发 现 模型 ,引入 泛 化 波 利 亚 
B ( Generalized Pólya Um ,GPU ) 528 7 ,利用 相关 术语 
采样 来 缓解 稀 玻 性 。 在 传统 主题 发 现 模型 基础 上 , 引 
入 GPU 模型 ,以 缓解 数据 稀 玻 性 问题 。 
3.2.1 传统 主题 模型 ”LDA (Latent Dirichlet Alloca- 
tion) 模型 ” 是 一 种 常用 的 主题 模型 ,由 于 其 参数 简 
单 ,不 产生 过 拟 合 现象 ,逐渐 成 为 主题 模型 的 研究 热 
点 。 因 此 本 文 使 用 LDA 模型 对 专利 文本 进行 主题 建 
模 。LDA 是 一 个 三 层 贝 叶 斯 概率 模型 ,由 词 .主题 和 文 
本 三 层 构成 。 该 模型 假设 每 个 文本 包含 若干 隐 含 主 
题 ,每 个 主题 包含 特定 的 词 。 文 本 和 词 间 的 关系 通过 
隐 含 主题 体现 。 隐 含 主 题 之 间 是 相互 独立 的 ,这 些 主 
题 被 文本 集中 所 有 文本 所 共享 ,而 每 个 文本 有 一 个 特 
定 的 主题 分 布 。 模 型 通常 采用 Gibbs 采样 推理 方法 估 
计 主 题 的 后 验 分 布 ,计算 如 公式 (3) 2 所 示 ; 
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Not+B Cr+a 
N,*VB ^ C, «Ko 
式 (3) 
其 中 ,z ”= 表示 文本 d 中 第 个 词 w 指定 为 变 
量 sz ,表示 排除 文本 d 中 的 第 nn 个 词 w 指定 的 主题 ; 
球 表 示 文 本 集合 中 所 有 的 词 条 ; 开 表示 主题 数 ,V 表示 
集合 中 总 的 词语 数 。 一 旦 获得 每 个 文本 中 每 个 词 的 主 
题 ,就 可 以 得 到 LDA 模型 中 9 I o 的 后 验 估计 值 , 计 
算 如 公式 (4) PARC) P Weg: 


p(z ® -klz ,,, W,a,B) ec 


Naata s 
But = N; + Ka A (4) 
Noa +6 x 
Qu, 一 N, 十 Vg X) 


其 中 ,6 表示 文本 4 包含 主题 大 的 概率 ;p, RR 
39 基于 GPU 的 主题 模型 ” 泛 化 波 利 亚 爷 (Gener- 
alized Pólya Urn, CPU) 模型 是 一 种 概率 统计 模型 ,是 标 
VERI E 8 (6 D" JE M ( Pólya Um, PU)。 在 主题 模型 
Fg I Hc E P AEG NR E POR 
6 一 个 小 球 属于 不 同 颜色 的 概率 值 可 以 通过 采样 和 
族 男 操作 ,用 伟 中 各 个 颜色 的 占 比 近似 模拟 。 在 PU 
Bh ,一 个 小 球 从 售 中 随机 抽出 ,观察 其 颜色 ;然后 
糙 是 放 回 到 念 中 ,并 将 相同 颜色 的 附加 球 添加 到 仙子 
中 并 重复 选择 过 程 。 这 个 过 程 类 似 于 在 LDA 模型 中 
使 用 Gibbs 采样 方法 对 模型 进行 求 导 。 在 GPU BUS 
E 轿 样 有 采样 和 放 回 操作 。 当 从 从 中 随机 采样 出 一 
个 五 球 后 ,将 其 放 回 到 舍 中 ,并 将 一 个 与 之 相同 颜色 的 
小 球 放 回 舍 中 。 除 此 之 外 ,还 要 准备 一 些 颜 色相 似 的 
NER, REER E, GPU 模型 可 以 保证 后 续 
采样 中 不 仅 能 以 更 高 的 概率 再 次 取 到 相同 颜色 的 小 
球 ,同时 也 能 以 较 高 的 概率 取 到 其 他 颜色 相似 的 小 球 。 
这 个 操作 可 以 类 比 到 基于 术语 的 主题 模型 之 中 ,利用 
GPU 模型 提高 术语 和 术语 (如 “ 奥 氏 体 不 锈 钢 "和 “不 
锈 钢 ” ) 被 分 配 相同 主题 的 概率 ,从 而 缓解 基本 模型 中 
术语 共 现 所 存在 的 稀 朴 性 问题 。 近 期 的 一 些 研究 工作 
表明 利用 GPU 模型 融入 先 验 知识 是 一 种 直接 有 效 的 
FEI, 

具体 地 ,基于 术语 的 中 文 专利 主题 发 现 模型 中 , 基 
于 GPU 模型 的 Gibbs 采样 推理 方法 估计 主题 的 后 验 分 
布 ,计算 如 公式 (6) 所 示 : 


其 中 ,zz ”= 天 表示 文本 d 中 第 nn 个 术语 1 指定 为 
变量 上 ;zj ,表示 排除 文本 d 中 的 第 个 术语 上 指定 的 
主题 ;六 表示 集合 中 总 的 术语 数 ;4 表示 大 小 为 1V'1 x | 
V1 的 CPU 促进 量 矩 阵 ,为 了 增 大 语义 相近 元 素 分 配 
到 相同 主题 的 概率 ,可 以 通过 术语 的 相似 度 对 矩阵 4 
HEITAN PRAES AREE A 中 的 元 素 AL, = sim(v, v) , 表 
示 术 语 v 和 术语 vw 间 的 相似 度 ,定义 如 式 (7) 所 示 : 


$ 


1, v-v 
_ low'l 
"Uv" 
0, 其 他 


sim(v,v') >o Jt E. v' zv 


A, , =| sim(v ,v') 


su 
其 中 ,lomw'1 表 示 术 语 " 与 w 相 同 词 个 数 ,lzUw 1 
表示 术语 v 和 wvw' 不 同 词 个 数 ,o 为 指定 的 相似 度 阔 值 。 
闵 值 的 设置 可 以 过 滤 掉 相似 度 低 的 术语 对 ,认为 其 相 
似 性 不 明显 ,不 加 入 到 GPU 促进 量 和 矩阵 4 中 ,例如 , 术 
W RARE 不 锈 钢 ” 和 “抗菌 不 锈 钢 ”的 相似 度 173. 
本 文选 取 相 似 度 阔 值 为 0.2。 
相应 地 ,基于 CPU 主题 模型 中 0 和 o 的 后 验 估计 
值 ,计算 如 公式 (8) 和 (9) 所 示 : 


B N pata : 
buat = NE Ky AUS) 
È NA, uo +6 式 (9) 
工 


Pee S S N A, + VB 

在 此 模型 中 ,通过 引入 术语 相似 度 知识 ,利用 CPU 

模型 提高 术语 和 术语 被 分 配 相 同 主 题 的 概率 ,从 而 组 

解 基本 模型 中 术语 共 现 所 存在 的 稀 玻 性 问题 。 当 4 为 

单位 矩阵 时 , 即 还 原 为 Pblya Urn 模型 。 由 相似 的 对 称 

性 可 知 ,矩阵 4 具有 稀 玻 性 。 因 此 ,CPU 模型 直接 作用 
于 采样 过 程 并 不 会 增加 模型 的 复杂 度 和 推理 的 难度 。 


4.1 数据 集 

为 了 验证 本 文 提出 模型 的 有 效 性 ,本 文 分 别 选取 
稀土 钢 和 电解 锰 两 个 领域 的 专利 文献 进行 实验 。 稀 土 
钢 一 般 指 在 钢 中 添加 一 定 成 分 的 稀土 元 素 ,从 而 提高 
钢 的 横向 性 能 、 耐 磨 性 能 和 耐 腐蚀 性 优异 性 能 的 钢 种 。 
随 着 近 几 年 钢铁 行业 去 产能 和 转型 升级 的 推动 ,发 挥 
稀土 资源 优势 ,提高 稀土 钢 的 市 场地 位 成 为 重要 课题 。 
金属 锰 在 钢铁 工业 中 的 用 量 仅 次 于 铁 , 是 一 种 重要 合 


È Narso +B 
(d) v^ y vut, 
-k A EM 
PÈZ, lza W,a,B, ) ec 5, so +V'B 
Naata . 

6 
N, + Ka A) 


金 元 素 ,在 钢铁 冶炼 ,特别 是 锰 代 镍 型 不 锈 钢 和 高 级 特 
丈 钢 的 冶炼 中 起 着 非常 重要 的 作用 。 此 外 ,金属 锰 还 
在 有 色 金 属 .磁性 材料 、 催 化 剂 .电池 材料 等 领域 扮演 


121 


&4 dde xf Chinaxiv 合 作 期 刊 
第 62 卷 第 21 期 2018 年 11 月 

重要 的 角色 。 通 过 对 我 国电 解 锯 领域 专利 的 系统 分 ”的 定义 如 公式 (11) FR: 

析 , 探 讨 我 国电 解 锋 工 业 的 研究 现状 与 技术 发 展 趋势 i aer 


实现 合理 规划 与 科学 决策 。 

实验 基于 中 国 国家 知识 产权 局 专利 数据 库 , 检 索 
范围 为 中 国 发 明 公 开 专 利 ,检索 日 期 为 2017 年 12 月 8 
日 ,分 别 以 "稀土 钢 ” 和 ”电解 锰 ” 为 关键 词 进行 检索 ， 
分 别 获 得 1 547 和 1 544 条 中 国 发 明 公 开 专 利 。 通 过 
数据 抓 取 、 清 洗 、 去 重 后 ,最 终 分 别 将 专利 标题 和 摘要 
作为 待 分 析 的 领域 专利 文本 集 。 

为 了 获取 专利 通用 词 ,根据 专利 IPC 分 类 号 ,分 别 
从 A 中 随机 抽取 2 000 个 中 国 发 明 公开 专利 文献 的 
标题 和 摘要 作为 辅助 专利 文本 集 。 数 据 集 基本 信息 如 
表 1 所 示 : 


TE 


一 X1 数据 集 基本 信息 
稀土 钢 1 511 
电解 锰 1 577 
A 人 类 生活 必需 ( 农 ` 轻 、 医 ) 2 000 
B 作业 ;运输 2 000 
C 化 学 ;冶金 2 000 
D 纺织 ;造纸 2 000 
E 固定 建筑 物 ( 建筑 ,采矿 ) 2 000 
N F 机 械 工 程 ;照明 ;加 热 ; 起 器; 爆破 。 2 000 
p G 物理 2 000 
H 电学 2 000 


4. Qo 评估 方法 
-二 实验 主要 对 术语 识别 的 准确 率 和 主题 模型 的 质量 
XAR 

首先 采用 P@ N 方法 评估 专利 术语 识别 的 准确 
性 , 即 判断 最 终 排序 候选 术语 表 中 前 N 条 术语 的 准确 
率 。 被 模型 自动 抽取 的 前 N 条 术语 采用 人 工 方式 进行 
判断 。 为 了 避免 主观 性 和 领域 知识 的 局 限 性 ,对 于 明 
显 正确 或 错误 的 被 识别 术语 直接 标记 相应 标记 ,而 对 
于 很 难 辨别 正确 性 的 被 识别 术语 则 利用 百度 百科 、 维 
基 互动 百科 等 知识 网 站 查找 是 否 存在 对 应 的 词 条 ,以 
判别 被 识别 术语 的 正确 性 。 计 算 公式 如 式 (10) 所 示 : 


# 前 六条 候选 术语 中 正确 的 术语 
PONTO # 前 入 条 候选 术语 1 


式 (10) 


接着 ,实验 借助 主题 与 主题 的 平均 KL( Kullback- 


Leribler) 距离 评估 生成 主题 的 质量 。KL 距离 常用 来 衡 
量 两 个 概率 分 布 的 距离 , KL 值 越 大 ,表明 主题 与 主题 
间 的 距离 越 远 ,主题 质量 越 高 。 平 均 KL 距离 avg KL 
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K 


其 中 KL 距离 KLCo, | ej) = Xe, log 2^. BT 
jo 


KL 距离 是 不 对 称 的 ,但 是 w; 和 w 相似 性 度量 是 对 称 
的 , 故 将 公式 进行 调整 ,采用 对 称 的 Jensen -Shannon ff 
离 度量 2 个 主题 词 分 布 的 距离 ,替代 公式 (11) 中 的 
KL ,具体 计算 公式 如 式 (12) 所 示 : 


KL(o;,o;) +KLCp pi) 
2 


JS(9i,9;) = 式 (12) 


4.3 实验 步骤 与 参数 设置 
首先 进行 术语 识别 。 为 此 ,使 用 中 国 科 学 院 计算 
研究 所 的 ICTCLAS 分 词 系 统 ( http ;//ictclas. nlpir. 
org/ ) 对 目标 专利 文本 集 和 辅助 专利 文本 集 进 行 分 词 。 
该 分 词 系统 具备 中 文 分 词 .词性 标注 等 功能 ,是 当前 较 
好 的 中 文 分 词 工 具 , 被 广泛 使 用 。 根 据 分 词 信息 ， 
计算 目标 集中 单词 的 类 别 粹 ,通过 人 工 判 定 ,选取 前 
500 个 最 高 的 类 别 炉 词 作为 通用 词 ,对 目标 集 进行 粗 
切 分 ,选取 候选 术语 ,然后 使 用 C -value 值 排序 候选 术 
语 选 取 最 大 的 若干 候选 术语 作为 术语 。 

表 2 为 类 别 箭 值 最 高 的 前 10 个 词 。 由 表 2 可 见 ， 
类 别 焙 值 最 高 的 这 些 词 通常 在 各 专利 文献 类 别 中 均 会 
出 现 ,与 具体 专利 主题 分 析 中 的 专利 术语 无 关 , 包 含 语 
义 信息 较 少 ,可 以 作为 通用 词 。 

表 2 SEXUS B ERA BUB 20 个 词 


序号 词 ES 
1 公开 3.00 
2 发 明 2.99 
3 涉及 2.99 
4 技术 2.99 
5 需要 2.99 
6 能 够 2.98 
7 提供 2.98 
8 快速 2.98 
9 进行 2.98 
10 FME 2.98 


对 识别 出 的 术语 ,采用 最 大 长 度 匹 配方 法 ,对 目标 
专利 文本 被 切 分 成 碎片 的 词组 进行 分 词 优化 后 ,形成 
术语 包 (bag-of-terms ) ,使 用 主题 模型 建 模 。 在 主题 建 
模 过 程 中 ,根据 经 验 设 置 a=50/K、B = 0.01,Gibbs 采 
样 迭 代 次 数 参 数 为 2 000 ,保存 迭代 参数 为 1 000。 主 
题 数 K 的 选取 通过 计算 基本 专利 主题 模型 (第 3.2 部 
分 ) 的 困惑 度 选取 最 优 值 ,采用 五 折 交 叉 验证 。 根 据 计 
算 ,实验 设 定 稀土 钢 数据 集 的 主题 数 天 = 15 .电解 锰 数 
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据 集 的 主题 数 天 =20。 
4.4 ”术语 识别 方法 评估 
为 了 验证 本 文 提出 的 术语 识别 方法 的 有 效 性 , 实 
验 使 用 以 下 两 种 方法 进行 比较 : 
(1) Rule-C-value: 传 统 的 基于 术语 构 词 规则 匹配 

的 方法 选 名 词 构成 的 短语 ,将 词性 匹配 的 名 词 术语 抽 

取出 来 [7] ,然后 使 用 C-value 排序 候选 术语 。 

(2)EC-C-value: 使 用 本 文 3.1 部 分 提出 的 类 别 粮 
方法 选取 候选 术语 ,然后 根据 候选 术语 C-value 值 降序 
排序 ,抽取 候选 术语 。 

实验 结果 如 图 2 .图 3 所 示 。 由 图 2、 图 3 可 见 ,在 
两 个 数据 集中 ,EC-C-value 方法 显著 好 于 Rule-C-value 
方法 ,表明 通过 类 别 信 选 取 候选 术语 与 通过 C-value ffi 
排序 候选 术语 比 规则 匹配 的 方法 更 加 有 效 。 

T3 列 出 了 两 种 方法 前 10 个 候选 术语 ,其 中 粗 体 
表 东 正确 抽取 的 候选 术语 。 由 表 3 可见, 基于 术语 构 
he uiis 
些 笛 高 频 出 现 , 且 不 在 停 用 词 表 中 ,产生 许多 错误 候选 
态 油 ,从 而 导致 最 后 术语 抽取 准确 率 很 低 ;而 基于 通用 
户 殉 方法 则 能 够 将 “制备 “方法 “发 明 “ 生 产 "等 作 
M xp cM 
高 如 术语 抽取 的 准确 率 。 
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80 


60 
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排序 后 面 N 条 候选 术语 ( 条 ) 


图 3 电解 锰 集 术语 识别 方法 比较 


N 
> 表 3 两 种 方法 前 10 个 候选 术语 
xXx 稀土 钢 "it 
a X Rule-C-value EC-C-value Rule-C-value EC-C-value 
E: 制备 方法 双向 不 锈 钢 制备 方法 TEST 
m9. os 发 明 公开 LENT. 阴极 板 药 芯 焊丝 
O ; 重量 百分比 稀土 合金 IDEST 金属 铬 
4 质量 百分比 合金 元 素 "trs ot ESTE 
4 4 Wd 奥 氏 体 不 锈 钢 药 芯 焊丝 药 芯 
5 制造 方法 结 硬 质 合金 重量 份 氧化 锰矿 
6 生产 方法 稀土 氧化 物 电解 儿 阴极 [$T 
7 CES 钢 结 硬 质 合金 重量 百分比 DT. 
8 TEST IE. turi 阴极 板 KEN 焊条 
9 LENT. 药 芯 焊丝 UTE 熔 数 金属 
10 稀土 合金 铁 素 体 不 锈 钢 阳极 液 钝 化 ik 


4.5 主题 模型 评估 

为 了 验证 本 文 提出 的 基于 GPU 的 主题 模型 的 有 
效 性 ,实验 使 用 第 3.1 部 分 方法 选取 的 术语 ,对 比 以 下 
两 种 主题 模型 

(1) EC-PhraseLDA ; 该 模型 认为 多 词 出 现 的 连续 
词语 并 非 碰巧 ,而 这 些 连续 的 单词 之 间 必 然 有 一 定 的 
联系 。 使 用 势 函 数 表示 术语 中 词语 之 间 的 相互 影响 关 


系 ,术语 的 单词 共享 相同 的 潜在 主题 ”。 
(2)EC-GPULDA: 使 用 本 文 第 3.2.2 部 分 提出 的 
基于 GPU 的 主题 发 现 模型 对 术语 包 建 模 。 
实验 结果 如 图 4 所 示 。 由 图 4 可见 ,EC-GPULDA 
结果 好 于 EC -PhraseLDA。EC -PhraseLDA 使 用 术语 蔡 
代 了 分 词 的 碎片 单词 组 ,但 是 同时 也 造成 术语 共 现 降 
低 , 从 而 影响 了 主题 建 模 效果 ;本 文 提 出 的 EC-GPUL- 
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DA 引入 CPU 模型 ,提高 相似 术语 的 采样 概率 ,从 而 增 
加 了 主题 模型 的 距离 。 


JEC-PhraseLDA 
&gEC-GPULDA 


电解 锰 


4 两 种 主题 模型 方法 比较 


稀土 钢 


表 4 列举 了 两 种 主题 建 模 的 前 10 个 主题 词 和 术 
证 ,其 中 多 词 术语 使 用 粗 体 表示 。 由 表 3 可 以 看 出 ,使 
用 沁 C-PhraseLDA 时 ,由 于 多 词 术语 稀 玻 性 ,使 得 前 10 
aom EC-GPULDA 方法 外 
够 枫 据 相似 度 将 相似 的 术语 推论 主题 ,从 而 使 得 一 些 
院 的 多 词 术 语 能 够 进入 前 10 单词 ,从 而 解决 了 术 


C CC 


4.6 与 传统 专利 主题 比较 
最 后 ,实验 将 本 文 提 出 的 方法 与 常用 的 专利 主题 
分 析 方 法 进行 比较 。 预 比较 的 方法 如 下 : 
(1)LDA: 去 除 专利 文本 中 的 停 用 词 ,对 分 词 等 预 
处 理 后 的 专利 文本 按照 词 为 单位 进行 主题 建 模 ”” 。 
(2) RuleLDA :根据 词法 规则 ,选取 名 词 专利 术语 ， 
术语 中 的 单词 属于 相同 的 主题 ,进行 主题 模型 建 模 ” 。 
(3) EC -GPULDA :使 用 本 文 提 出 的 方法 ,使 用 EC 
选取 通用 词 ,以 识别 专利 术语 ,然后 使 用 基于 CPU 的 
主题 模型 建 模 。 
图 5 为 实验 结果 。 由 图 5 可 见 ,LDA 方法 结果 最 
25, RuleLDA 结果 次 之 ,本 文 提出 的 EC-GPULDA 模型 
取得 了 最 好 的 建 模 效果 。 


LDA 
发 Rule-LDA 
8 8 EC-GPULDA 


TER VE TRU 
e 表 4 ”主题 表示 实例 ? 
稀土 钢 电解 锰 0 
RNI EC-PhraseLDA EC-GPULDA EC-PhraseLDA EC-GPULDA ui 
i m m mm mo 图 5 与 传统 专利 主题 模型 比较 
LI pn Y Y X] 
S 和 o! 表 5 列举 了 3 种 主题 模型 中 一 个 主题 的 前 10 个 
X a Xx Aie oe 主题 词 和 术语 ,其 中 多 词 术语 使 用 粗 体 表示 。 由 表 3 
© gk ES 吸附 DS 不 难看 出 ,基于 词 表示 的 主题 模型 包含 一 些 通用 词 ,如 
I" wat m m “发 明 ”“ 所 述 "等 ,从 而 影响 主题 模型 建 模 质量 ;而 基 
EE RAN MEO KAE —— 于 词性 规则 的 主题 模型 在 术语 识别 上 准确 率 较 低 ,如 
diio Lp Wan M “生产 方法 ”并非 真正 的 术语 ;以 术语 为 主题 表示 的 基 
GEM NE ONE id 本 单元 包含 正确 的 多 词 术 语 , 并 通过 GPU 解决 多 词 术 
10 4 焊条 机 械 手 导轨 
语 的 稀 琉 性 问题 ,使 得 模型 更 易于 理解 。 
R5 主题 表示 实例 
序号 稀土 钢 电解 锰 
LDA RuleLDA ECG-PULDA LDA RuleLDA EC-GPULDA 
1 发 明 金属 焊接 所 述 电解 锰 Fe fi 
2 焊接 稀土 钢筋 连接 i& 电解 
3 JF 组 成 药 皮 设 有 环境 添加 剂 
4 焊条 力学 性 能 低 合金 钢 装置 方法 ER 
5 金属 含量 MEE 金属 电解 锰 电解 锰 i6 废 液 
6 钢 焊丝 焊接 电解 模 步 又 盐酸 
7 焊丝 成 型 管线 钢 设置 废水 聚 丙烯 酰胺 
8 重量 ih 钢 芯 一 种 Ait 活性 剂 
9 药 芯 特点 稀土 硅 铁 包括 资源 洗涤 器 
10 包括 生产 方法 Jk 管道 问题 导轨 
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MK, RADIS. 融入 术语 知识 的 专利 主题 发 现 方法 []. 图 书 情报 工作 ,2018 ,62(21) :118 - 126. 


针对 专利 主题 发 现 中 ,专利 术语 被 切 分 为 碎片 , 导 
致 主题 难以 解释 的 问题 ,本 文 提出 融入 术语 知识 的 专 
利 主题 模型 。 该 模型 首先 根据 专利 文献 的 特点 ,引入 
类 别 炉 , 有 效 地 识别 出 中 文 专利 文献 中 的 术语 ;然后 利 
用 泛 化 波 利 亚信 模型 加 大 语义 相似 术语 分 配 到 同一 主 
题 的 概率 ,以 缓解 术语 作为 基本 主题 模型 分 析 单位 所 
带 来 的 数据 稀 朴 性 问题 。 模 型 将 术语 作为 主题 模型 分 
析 的 基本 单位 , 同 传统 的 基于 分 词 的 主题 模型 表示 方 
法 相 比 ,术语 包含 更 加 丰富 的 语义 信息 .具有 更 强 的 可 
读 性 。 实 验 结果 表明 ,基于 术语 的 表示 方法 明显 提高 
了 主题 的 可 读 性 ,从 共 现 和 语义 相关 两 个 角度 有 效 降 
信子 术语 稀 政 性 的 影响 。 模 型 不 需要 领域 知识 和 繁杂 
的 户 言 规则 ,属于 数据 驱动 的 算法 ,适合 于 大 规模 中 文 
xs Ema. 

加 虽然 本 文 融入 术语 知识 的 专利 主题 模型 较 传统 专 
利 缚 题 模型 取得 了 更 好 的 效果 ,但 是 专利 术语 识别 中 
人 网 术 语 识别 的 准确 率 不 高 ,在 用 C -value 排序 后 , 低 
频 候 选 术语 C-value 值 较 小 而 被 移 除 。 在 将 来 的 工作 
fi 将 进一步 深 和 研究 如 何 提高 低频 术语 识别 的 准确 
AEN 
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bstract. [ Purpose/significance | Aiming at the problem of analysis patent topic in terms of word which causes 


topies are difficult to explain in the patent topic analysis, this paper proposes a patent topic discovery model integrated 


wilh-term knowledge. [ Method/process | The proposed model firstly introduces the class entropy and effectively recogni- 


C) 
zes the terms in the patent literature. Then, the Generalized Pólya Urn model is used to increase the probability of the se- 


mantic similarity terms assigned to the same topic , in order to alleviate the data sparsity problem brought by the term as the 


basic topic model analysis unit. [ Result/conclusion ] The experimental results show that the proposed model contains the 


term information to improve the quality of the topic generation, making the topic representation more readable and topic 


discriminative. 
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